返回
详细梳理了State Value与Action Value的定义,推导了贝尔曼期望方程(Bellman Expectation Equation)的通用形式及其矩阵表达。
reinforcement learning
bellman equation
学习笔记
数学基础